心理統計法 演習問題
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
https://amzn.to/32dVAdF
1. データ分布の要約
1) 定められた操作に基づいて観測対象に数値を割り当てること
測定(measurement)
2) 階級に分けて観察された度数・確率・累積度数・累積確率をまとめた表
度数分布表(frequency distribution table)
3) 縦軸に度数、横軸に階級あるいは階級値を配した統計グラフ
ヒストグラム(histogram)
4) データを独立変数と見たときの関数
統計量(statistic)
5) データの性質を縮約するための統計量
要約統計量
6) 平均値・中央値・最頻値のように分布の位置を記述する要約統計量
代表値
7) 測定値から平均を引いて2乗した値の平均
分散(variance)
8) データの中の少数の甚だしい値の測定値
外れ値(outlier)
9) その測定値の下方に全データのα%があるような値
α%点
10) 最大度数を有する階級値
最頻値(mode)
11) 平均を引いて標準偏差で割る一次変換
標準化(standardization)
12) 理論分布の特徴を定めている数的指標
母数(parameter)
13) 特定の確率で測定値が観察される区間
予測区間(prediction interval)
14) 特定な区間で均等に測定値が観察される理論分布
連続一様分布(continuous uniform distribution)
2. 事後分布とベイズの定理
1) 複数の測定値(や母数)の同時的観察に関する密度関数
同時分布(joint distribution)
2) 一方の測定値(や母数)が与えられた下での他方の分布
条件付き分布(conditional distribution)
3) データで条件づけられた母数の分布を与える定理
ベイズの定理(Bayes' theorem) or ベイズの公式(Bayes' formula)
4) 母数を変数、データを定数とした確率密度関数の値
尤度(likelihood)
5) データの関数によって母数を推定する方法
推定量(estimator)
6) 尤度が最大になるように母数を推定する方法
最尤推定量(maximum likelihood estimator) or 最尤推定法
7) データを見る前の母数に関する主観的な信念の確率分布
事前分布(prior distribution)(事前確率分布 prior probability distribution)
8) 分析結果を分析者(とその仲間たち)が享受する分析
私的分析(private analysis)
9) 分析結果の知見を社会に還元するための分析
公的分析(public analysis)
10) 事後分布にできるだけ影響しないような事前分布
無情報的事前分布(non-informative prior distribution)
11) 母数を含まないベイズの定理の分母
正規化定数(normalizing constant) or 正規化係数(normalizing coefficient)
12) データが与えられたあとの母数の条件つき分布
事後分布(posterior distribution)(事後確率分布 posterior probability distribution)
放送授業
ベイズの定理は1740年代に発見された
フィッシャーによって1925年公刊された『研究者のための統計的方法』は超ベストセラー&ロングセラーだった
ベイズ的アプローチには、有意性検定の3倍の長さの歴史がある
MCMC法によって事後分布が評価できるようになり、ベイズ的アプローチが再評価された
3. 1群の正規分布の分析
1) 事後分布に従う母数をサンプリングする数値計算法
マルコフ連鎖モンテカルロ法(MCMC法)
2) 力学的エネルギーの原理を応用したMCMC法の1つの手法
ハミルトニアンモンテカルロ法(HMC法)
3) 初期に発生させたMCMCの乱数のうち捨てて利用しない期間
バーンイン(burn-in, 焼き入れ, ウォームアップ warmup)期間
4) 経時に沿って乱数の値を折れ線で表現したグラフ
トレースプロット(trace plot)
5) 事後分布から正しく乱数が発生しているか否かを判定する指標
収束判定指標$ \hat R
6) 母数の事後分布を点で代表させる方法
点推定量(point estimator)
7) 事後分布の平均値である事後期待値の略号
EAP
8) 事後分布の中央値である事後中央値の略号
MED
9) 事後分布の最大値である事後確率最大値の略号
MAP
10) ある確率に相当する事後分布の端を除いて残った中央部の区間
確信区間(credible interval)
11) 将来観測されるであろうデータの分布
予測分布(predictive distribution)
12) 研究上の問いと同義なカタカナ表記
リサーチ・クエスチョン(research question)
4. 生成量と研究仮説が正しい確率
1) MCMC法による母数の標本の関数
生成量(generated quantities)
2) 連続的な値をとる測定特性のうち、絶対0点のあるもの
比率尺度(ratio scale)
3) 連続的な値をとる測定特性のうち、絶対0点のないもの
間隔尺度(interval scale)
4) 標準偏差を平均で割った散布度の指標
変動係数(coefficient of variation)
5) 実質科学的知見によって効果的な統計分析を行うために定めた点
基準点(reference point)
6) 基準点と平均との差を標準偏差で割った指標
効果量(effect size)
7) 確率の確率
メタ確率(meta probability)
放送授業
分散には$ nを分母とする標本分散と、$ n-1を分母とする不偏分散がある
データの要約的記述には標本分散を利用し、母集団の推定には不偏分散を利用する、と習うことがある
これは明確な誤り
データ生成分布として正規分布を想定した場合には、分母が$ nの標本分散が母分散の最尤推定量になる
だから標本分散も母分散を推定するための統計量として立派に利用できる
そもそも分散とは
数値要約の一種で、散布度に関する要約統計量
偏差の2乗の平均
$ n個の散らばりの平均
$ nを分母に置いたほうが自然
不偏性とは、分散に限らず、一般に推定量の平均的な値が母数に一致する性質のことである
真の値は誰も知らないけれど1点に固定した母分散に不偏分散の平均が一致する
ベイズ的アプローチでは、母数が確率的に分布するので、通常の意味での普遍性という概念はなくなる
$ n個の散らばりの平均である標本分散の方がわかりやすいので、標本分散を使う
5. 2群の差の分析1
1) 独立した2群とは、互いにどのように測定された群か
互いに影響し合わずに測定されている
2) 実験群に対する働きかけ
処理(treatment, 処置・処遇)
3) 処理をしない群
対照群(control group, 統制群)
4) 喫煙者と非喫煙者を比較するとき、処理に相当する喫煙は
暴露(exposure)
5) 治療群と非治療群を比較するとき、処理に相当する治療は
介入(intervention)
6) 男性群と女性群を比較するとき、処理に相当する性別は
属性(attribute)
7) 箱とその両側にでたひげで、データの分布を表現する統計グラフ
箱ひげ図(box-and-whisker plot)
8) 75%点と25%点との差
四分位範囲(interquartile range)
9) 箱ひげ図の箱の端から四分位範囲のc倍以上の点
外れ値(outlier)
放送授業
有意性検定
帰無仮説$ H_0: $ \mu_1 = \mu_2が真であると暫定的に仮定する
聴音状態と安静状態では『知覚時間』の母平均は等しい
検定仮説ともいう
分布が解明されている検定統計量であるt値を計算する
$ t値 = \frac{\bar x_1 - \bar x_2}{2群に共通の標準偏差} \times \sqrt{\frac{n_1 \times n_2}{n_1 + n_2}}
$ t値 = 2.39
平均値の差そのものが検定統計量になるわけではない
なぜこの式はt分布に従うのか
普通は教えない。暗
生成量なら定義式に従って計算するだけで、推測統計的考察が可能
p値を計算する
p値とは帰無仮説が真であるときにデータから計算したt値より甚だしいt値が観察される確率
p値は帰無仮説が真であるときにt値が$ |2.39|より大きくなる確率$ p = 0.022
2.2%
参照確率と比較する
$ p値 < 0.05ならば帰無仮説を棄却し、母平均は有意差ありと判定する
$ p値 < 0.05なので「知覚時間」の平均値に差があると判定する
p値の本来の意味を誤解してしまいがち
まとめ
帰無仮説が真であるときに、分布の形状が数学的に解明されており、有意性検定のために利用する統計量を検定統計量という
p値とは、帰無仮説が真であるときに、データから計算した検定統計量より甚だしい値が観察される確率である
有意水準とは、起きにくさの程度を予め定めた参照確率であり、$ 0.05が用いられることが多い
p値は、帰無仮説が正しい確率と勘違いされることが多い
6. 差を解釈するための指標
1) 平均値差は標準偏差の何倍かという指標
効果量(effect size)
2) 第1群の平均値$ \mu_1は、第2群では何%点に相当するかという指標
非重複度(CohenのU3, third measure of nonoverlap)
3) 第1群の測定値が、第2群の測定値を上回る確率
優越率(probability of dominance)
4) 平均$ 0、標準偏差$ 1の正規分布
標準正規分布(standard normal distribution)
5) 第1群と第2群の測定値の差が基準点$ cより大きくなる確率
閾上率(probability beyond threshold)
放送授業
帰無仮説は採択しても棄却しても誤りを犯す可能性がある
第1種の誤り $ \alpha
帰無仮説が真であるのに帰無仮説を棄却してしまう誤り
第2種の誤り $ \beta
帰無仮説が偽なのに帰無仮説を採択してしまう誤り
$ \alphaと$ \betaは拮抗する性質があって、両方を同時に小さくすることは難しい
検定力
帰無仮説が偽であるときに、正しく帰無仮説を棄却する確率
table: 帰無仮説の2つの誤り
本当の状態 正しい判断 誤った判断
帰無仮説が真 帰無仮説を採択 1 - α 帰無仮説を棄却 α(第1種の誤り)
帰無仮説が偽 帰無仮説を棄却 1-β(検定力) 帰無仮説を採択 β(第2種の誤り)
7. 相関と2変量正規分布
1) 1つの観測対象から2回測定したデータ
2変量データ(bivariate data, 2変数データ)
2) 縦軸と横軸に変数の目盛りを配し、観測対象を2次元平面上に付置した統計グラフ
散布図(scatter plot)
3) 左下から右上がりにデータが打点される2変数の関係
正の相関関係(positive correlation)
4) 左上から右下がりにデータが打点される2変数の関係
負の相関関係(negative correlation)
5) 散布図に丸いボールのような形状が観測される2変数の関係
無相関(no correlation)
6) 各測定値から平均を引いた値のデータ
平均偏差データ(mean deviation data)
7) 平均偏差データの積の平均値
共分散(covariance)
8) 平均偏差データを標準偏差で割った値のデータ
標準化データ(standardized data)
9) 標準化データの積の平均値
相関係数(correlation coefficient)
放送授業
5%水準で有意な結果が得られたからといって、帰無仮説が真である確率が5%以下であると解釈してはダメである
帰無仮説はデータを取る前から偽であることが明白である
帰無仮説の採択とは、帰無仮説を正しいものとして採用することではない
有意にならないからといって、差がないとは積極的にいえない
8. 2群の差の分析2
ダイエット法Aの効果を調べるために「対応ある2群の実験」を企画した。ダイエットプログラムに参加する「前の体重」と、参加した「後の体重」を測定し、次式で「減量」という変数をつくった。
$ 「減量」 = 「前の体重」 - 「後の体重」
以下の説明に相当する専門用語を答えなさい。
1) 「減量」の標準偏差
差得点の標準偏差
2) 前後の体重の平均値差は「減量」の標準偏差の何倍かという指標
差得点の効果量
3) 「減量」が$ 0kgより大きい確率
差得点の優越率
4) 「減量」が$ ckgより大きい確率
差得点の閾上率
放送授業
$ nが大きくなるとp値は平均的にいくらでも$ 0に近づく
ビッグデータに対しては有意性検定は無力であり、「高度に有意」という無情報な判定を繰り返す
$ nが大きくなることは分析可能な情報が増えることを意味し、望ましい状態である
「母平均の差は$ cより大きい」という研究仮説が正しい確率は、$ nの増加にともなって$ 0か$ 1に近づいていく
9. 1要因実験の分析
1) 研究目的に応じて、どのような実験を行えばよいかを研究する分野
実験計画法(experimental design)
2) 測定値の変動に影響する原因となるかもしれない質的な変数
要因(factor), 因子
3) 要因のとるさまざまな状態
水準(level)
4) 水準内の標準偏差
誤差標準偏差
5) 各水準のデータ数が同じでないデータ
アンバランスデータ(unbalanced data)
6) 水準の平均値と全平均との差
水準の効果
7) 測定値の分散に占める、要因の分散の比率
説明率(proportion of variance accounted for, 分散説明率)
8) 同時に成り立つ複数の命題の集まり
連言命題(conjunctive proposition)
放送授業
分散分析では、アンバランスか否かで計算方法が変わる
計算の方法は理解ではなく、しばしば暗記させられる
ベイズ的アプローチでは、アンバランスか否かで計算手順は変わらない
アンバランスという状態は、実験計画にとって決して望ましい状態ではなく、できるだけ避けるべきである
分散分析の要因の効果がデータ数で定義されていることは理論的矛盾である
10. 2要因実験の分析
1) 要因の影響を受ける前の測定値の平均
全平均(total mean)
2) 要因Bの水準によらない要因Aの水準間の差は、要因Aの何か
主効果(main effect)
3) 測定値に影響する原因の候補が2つの実験
独立した2要因計画(independent two factorial design)
4) 要因Aと要因Bの水準の組み合わせによって表現される区分
セル(cell)
5) 一方の要因の水準の違いで他方の要因の水準間の平均が異なる効果
交互作用(interaction)
6) 要因A(3水準)と要因B(3水準)の2要因実験の母数の数はいくつあるか
10個($ ab+1)
放送授業
有意性検定の$ \alpha = 0.05には根拠がない
p値だけにたよって差の有無を判定することは誤り
差があるか否かという、実質科学的判定を、純粋に統計学の範囲内で済ませることはできない
差がある確率は、解釈可能だから、ドメイン知識を利用して確率を評価する
11. 2項分布による分析
1) 計量データが従う分布
連続分布(continuous distribtuion)
2) 計数データが従う分布
離散分布(discrete distribution)
3) 数を数えるデータ
計数データ, カウントデータ(count data)
4) 量を測るデータ
計量データ
5) $ n \times (n-1) \times \cdots \times 1は、$ nの何か
階乗(factorial)
6) 結果が2値で、確率が一定である試行
ベルヌイ試行(Bernoulli trial)
7) ベルヌイ試行の成功確率
ベルヌイ分布(Bernoulli distribution)
8) $ n回のベルヌイ試行の成功数$ xが従う分布
2項分布(binomial distribution)
9) 賭けに勝った人の払い戻し倍率の逆数
オッズ(odds)
10) 比率の差の別名
リスク差(risk difference)
11) 比率の比の別名
リスク比(risk ratio)
12) 正反応は他方の反応の何倍生じやすいのかの比
オッズ比(odds ratio)
放送授業
標準偏差のEAP推定値は標本標準偏差以上の値になる
1変量の分布の特徴を要約する3番目の観点は歪度である
正に歪んだデータ分布では、小さい方から最頻値・中央値・平均値の順番になる
正に歪んだ事後分布では小さい方からMAP・MED・EAPの順番になる
12. 多項分布による分析
1) $ n回の試行の結果、$ k種類の値の観測数が従う分布
多項分布(multinomial distribution)
2) 変数Aのカテゴリが$ iで、かつ変数Bのカテゴリが$ jの観測度数
同時度数(joint frequency)
3) 変数Aのカテゴリを問わず、変数Bのカテゴリが$ jの観測度数
周辺度数(marginal frequency)
4) セル度数をデータ数で割った値
標本比率
5) 変数Aのカテゴリが$ iで、かつ変数Bのカテゴリが$ jの母比率
同時確率(joint probability)
6) クロス表で同時確率が周辺確率の積で表現されない状態
連関(association)
7) セルが独立な状態から解離している程度を表す指標
ピアソン残差(Pearson's residual)
8) クロス表が連関している程度を表す指標
クラメルの連関係数(Cramer's association coefficient)
放送授業
標準偏差や相関係数や比率は、事前分布を一様分布とすると、標本統計値と伝統的な最尤推定値とMAP推定値の3つが一致する
post.sdは、MAPやMEDではなく、EAPの精度を示している
点として最頻値を計算するのは、初学者には難しい
EAPは初学者向きである。学習の進度に応じて好きな推定量を使用してよい
13. 単回帰分析
1) 一方の変数から他方の変数を予測・説明するための分析方法
回帰分析(regression analysis)
2) 回帰分析における従属変数の別名は何か
基準変数(criterion variable)
3) 回帰分析における独立変数の別名は何か
予測変数(predictor variable)
4) 回帰分析における$ \hat y_iは基準変数の何か
予測値(predicted value, fitted value)
5) 1次変換による予測式を何というか
単回帰直線(simple regression line)
6) 回帰直線$ \hat y = a + bxにおける母数$ aは何か
切片(intercept)
7) 回帰直線$ \hat y = a + bxにおける母数$ bは何か
回帰係数(regression coefficient)
8) 回帰分析における誤差変数の別名は何か
残差(residual)
9) 基準変数の分散に占める、その予測値の分散の割合は何か
決定係数(coefficient of determination, R-squared, multiple R-squared)
10) 回帰分析における独立変数と残差の散布図は何か
残差プロット(residual plot)
放送授業
データから計算した眼の前の95%信頼区間に母数が含まれる確率は95%ではない
95%の「95%信頼区間」が母数を含む
95%最高事後密度区間は、事後分布の密度が高い部分の95%の範囲である
両側確信区間は、まれにMAP推定値を含まないこともある
14. 重回帰分析
1) 一つの観察対象から3回以上の測定を行ったデータ
多変量データ(multivariate data)
2) 対称行列の形式で非対角要素を散布図に配したグラフ
多変量散布図(multivariate scatter plot)
3) 変数$ iと変数$ jの共分散を$ i行$ j列に並べた対称行列
共分散行列(covariance matrix)
4) 変数$ iと変数$ jの相関係数を$ i行$ j列に並べた対称行列
相関行列(correlation matrix)
5) 複数の予測変数の重み付き和による基準変数の予測式
重回帰式(multiple regression equation)
6) 重回帰式における予測変数にかかる係数
偏回帰係数(partial regression coefficient)
15. 発展的学習によせて
1) 複雑に込み入った現象を単純に理解することを目的に構成した概念
構成概念(construct)
2) 構成概念を表現するための数理的表現
潜在変数(latent variable)
3) 因子によって多変量データの状態を説明するための潜在変数モデル
因子分析モデル(factor analysis model)
4) 構成概念に関する心理学的仮説がなくても分析が可能な因子分析
探索的因子分析(exploratory factor analysis)
5) 心理学的な仮説を利用して行う因子分析
確認的因子分析(confirmatory factor analysis)
6) 因子から観測される変数に引かれた単方向の矢印に付された係数
因子負荷(factor loading)
7) 複数の回帰式を同時に推定する分析手法
パス解析(path analysis)
8) パス図の中で単方向の矢印を1度も受け取っていない変数
外生変数(exogeneous variable)
9) パス図の中で単方向の矢印を受け取っている変数
内生変数(endogenous variable)
10) 因子分析とパス解析を同時に行うことが可能な統合的な分析方法
共分散構造分析(covariance structure analysis), 構造方程式モデリング(structural equation modeling, SEM)
11) 直交表を使い、予測変数を互いに無相関にした回帰分析
コンジョイント分析(conjoint analysis)
12) 予測変数の値を分岐させながら樹木を成長させる予測手法
決定木(decision tree)
13) 決定木における出発点のノード
ルートノード(root node)
14) 逆ロジット関数を利用し、2値の基準変数を予測する回帰分析
ロジスティック回帰分析(logistic regression analysis)
15) 人工知能の研究過程で発達した人工神経回路モデル
ニューラルネットワーク(neural network, NN)
16) ニューラルネットワークの機械学習(母数推定法)の方法
深層学習(deep learning)
17) 大規模試験を企画・作成・運用・評価するためのテスト理論
項目反応理論(item response theory, IRT)
18) 複数の研究を統合し、確実性の高い結論を導く統計手法
メタ分析(meta analysis)
19) メタ分析の結果を表示するための主要な統計グラフ
フォレストプロット(forest plot)
20) 回帰式の予測値をさまざまな確率分布に結びつけるための関数
リンク関数
逆ロジット関数(inverse logit function), 逆ロジット変換(inverse logit transformation)